Reinforcement Learning (RL) algorithms are known to scale poorly to environments with many available actions, requiring numerous samples to learn an optimal policy. The traditional approach of considering the same fixed action space in every possible state implies that the agent must understand, while also learning to maximize its reward, to ignore irrelevant actions such as $\textit{inapplicable actions}$ (i.e. actions that have no effect on the environment when performed in a given state). Knowing this information can help reduce the sample complexity of RL algorithms by masking the inapplicable actions from the policy distribution to only explore actions relevant to finding an optimal policy. This is typically done in an ad-hoc manner with hand-crafted domain logic added to the RL algorithm. In this paper, we propose a more systematic approach to introduce this knowledge into the algorithm. We (i) standardize the way knowledge can be manually specified to the agent; and (ii) present a new framework to autonomously learn these state-dependent action constraints jointly with the policy. We show experimentally that learning inapplicable actions greatly improves the sample efficiency of the algorithm by providing a reliable signal to mask out irrelevant actions. Moreover, we demonstrate that thanks to the transferability of the knowledge acquired, it can be reused in other tasks to make the learning process more efficient.
translated by 谷歌翻译
沟通对于代理人共享信息并做出良好决定的许多多代理强化学习(MARL)问题很重要。但是,当在存在噪音和潜在攻击者的现实应用程序中部署训练有素的交流代理商时,基于沟通的政策的安全就会成为一个严重的问题,这些问题被忽视。具体而言,如果通过恶意攻击者操纵沟通信息,依靠不信任的交流的代理可能会采取不安全的行动,从而导致灾难性后果。因此,至关重要的是要确保代理人不会被腐败的沟通误导,同时仍然从良性的交流中受益。在这项工作中,我们考虑了一个具有$ n $代理的环境,攻击者可以任意将通信从任何$ c <\ frac {n-1} {2} $代理商转换为受害者代理。对于这种强大的威胁模型,我们通过构建一个消息集结策略来提出可认证的辩护,该策略汇总了多个随机消融的消息集。理论分析表明,这种消息安装策略可以利用良性通信,同时确保对对抗性交流,无论攻击算法如何。在多种环境中的实验证明,我们的防御能够显着改善受过训练的政策对各种攻击的鲁棒性。
translated by 谷歌翻译
具有转换数据分布的环境中的持续学习是具有若干现实世界的挑战性问题。在本文中,我们考虑数据分布(任务)突然移位的设置,并且不知道这些班次的定时。此外,我们考虑一个半监督任务 - 不可行的设计,其中学习算法可以访问任务分段和未分段数据以进行离线培训。我们提出一种称为BasisiSodels(MOB)混合的新方法,用于解决这个问题设置。核心思想是学习一小一小部分模型,并构建模型的动态,任务依赖性混合模型,以预测当前的任务。我们还提出了一种新方法来检测与现有基础模型不分配的观察结果,并根据需要实例化新模型。我们在多个域中测试我们的方法,并表明它在大多数情况下使用比其他多种模型方法更少的模型在大多数情况下比现有方法更好地预测误差。此外,我们分析了Mob学习的潜在任务表示,并显示类似的任务倾向于在潜在空间中群集,并且当任务不一样,潜在的代表在任务边界处移动。
translated by 谷歌翻译
我们展示了一个新的财务框架,其中两个基于RL的代理商代表流动资金提供者和流动性的代理商同时学习,以满足他们的目标。由于参数化奖励制定和深度RL的使用,每组都会学习一个能够概括和插入广泛行为的共享政策。这是一步迈向全基于RL的市场模拟器复制复杂的市场条件,特别适合在各种情况下研究金融市场的动态。
translated by 谷歌翻译
Cheung和Piliouras(2020)最近表明,乘法权重更新方法的两个变体 - OMWU和MWU-显示的相反的收敛性属性取决于游戏是零和合作的。受这项工作的启发以及有关学习以优化单个功能的最新文献,我们引入了一个新的框架,用于学习在游戏中与NASH Eqeilibria的最后近期融合,在这种情况下,更新规则的系数(学习率)沿着轨迹学习了,这是由增强力学学习的以游戏性质为条件的学习策略:\ textit {游戏签名}。我们使用两人游戏的新分解构建后者,分成对应于交换性投影操作员的八个组件,从而概括和统一文献中研究的最新游戏概念。当学习系数时,我们比较了各种更新规则的性能,并表明RL策略能够利用各种游戏类型的游戏签名。在此过程中,我们介绍了CMWU,这是一种将共识优化扩展到受约束案例的新算法,对零和bimatrix游戏具有本地收敛保证,并证明它在具有恒定系数和跨系数的零和零游戏上都具有竞争性能学习系数时的频谱。
translated by 谷歌翻译
政策梯度方法可以解决复杂的任务,但是当动作空间或客观多重性的维度变得非常大时通常会失败。这部分地发生这种情况,因为基于刻度的梯度估计器的差异如二次方式缩放。在本文中,我们通过利用在新型动作目标影响网络中编码的独立结构的因子基线来解决这个问题。遵循的代表性政策梯度(FPG)提供了用于分析关键最先进的算法的常见框架,以概括传统的政策梯度,并产生了一种原因的方法,并在先前了解问题域的生成过程中。我们提供了对所提出的估算者的分析,并确定方差减少的条件。讨论了FPG的算法方面,包括最佳的策略分解,如最小的BICLique覆盖物所征用子,以及对错误指定网络的偏差差异的影响。最后,我们展示了我们对大规模强盗和交通交叉问题的算法的性能优势,为空间近似的形式提供了对后者的新贡献。
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译
姿势图优化是同时定位和映射问题的一种特殊情况,其中唯一要估计的变量是姿势变量,而唯一的测量值是施加间约束。绝大多数PGO技术都是基于顶点的(变量是机器人姿势),但是最近的工作以相对方式参数化了姿势图优化问题(变量是姿势之间的变换),利用最小循环基础来最大程度地提高范围的稀疏性。问题。我们以增量方式探索周期基础的构建,同时最大程度地提高稀疏性。我们验证一种算法,该算法逐渐构建稀疏循环基础,并将其性能与最小循环基础进行比较。此外,我们提出了一种算法,以近似两个图表的最小周期基础,这些图在多代理方案中常见。最后,姿势图优化的相对参数化仅限于使用SE(2)或SE(3)上的刚体变换作为姿势之间的约束。我们引入了一种方法,以允许在相对姿势图优化问题中使用低度测量值。我们对标准基准,模拟数据集和自定义硬件的算法进行了广泛的验证。
translated by 谷歌翻译
我们研究了改进的多臂匪徒(IMAB)问题,其中从手臂获得的奖励随着收到的拉力数量而增加。该模型为教育和就业等领域中的许多现实世界问题提供了优雅的抽象,在这种领域中,关于机会分配的决定可能会影响社区的未来能力以及它们之间的差异。在这种情况下,决策者必须考虑她的决策对未来奖励的影响,除了随时最大化其累积奖励的标准目标。在许多这些应用中,决策者的时间范围未知,这激发了在技术上更具挑战性的地平线环境中对IMAB问题的研究。我们研究了地平线 - 统一环境中两个看似相互冲突的目标之间产生的紧张:a)根据武器的当前奖励,在任何时候最大化累积奖励,b)确保具有更好的长期奖励的武器获得足够的机会即使他们最初的奖励很低。我们表明,令人惊讶的是,在这种情况下,这两个目标是相互对齐的。我们的主要贡献是对IMAB问题的任何时间算法,它可以获得最佳的累积奖励,同时确保武器在足够的时间内发挥其真正的潜力。由于缺乏机会,我们的算法减轻了最初的差异,并继续拉动手臂直到停止改善。我们通过证明a)imab问题的任何算法来证明我们的算法的最佳性,无论其功利主义,无论多么有效,都必须遭受$ \ omega(t)$政策后悔和$ \ omega(k)$竞争比率相对于最佳的比例离线政策和b)我们算法的竞争比率为$ O(k)$。
translated by 谷歌翻译
本文的重点是概念证明,机器学习(ML)管道,该管道从低功率边缘设备上获取的压力传感器数据中提取心率。 ML管道包括一个UPS采样器神经网络,信号质量分类器以及优化的1D横向扭转神经网络,以高效且准确的心率估计。这些型号的设计使管道小于40 kb。此外,开发了由UPS采样器和分类器组成的杂种管道,然后开发了峰值检测算法。管道部署在ESP32边缘设备上,并针对信号处理进行基准测试,以确定能量使用和推理时间。结果表明,与传统算法相比,提出的ML和杂种管道将能量和时间减少82%和28%。 ML管道的主要权衡是准确性,平均绝对误差(MAE)为3.28,而混合动力车和信号处理管道为2.39和1.17。因此,ML模型显示出在能源和计算约束设备中部署的希望。此外,ML管道的较低采样率和计算要求可以使自定义硬件解决方案降低可穿戴设备的成本和能源需求。
translated by 谷歌翻译